Analítica de datos aplicada a estudios sobre desarrollo

Introducción a las técnicas multivariantes no supervisadas

Proceso de analítica

Wickham, H. y otros (2023)

MÉTODOS MULTIVARIANTES

Modelos de analítica

ANÁLISIS DE COMPONENTES PRINCIPALES

Análisis de Componentes Principales

Método para reducir la dimensionalidad de los datos cuando las variables son cuantitativas y existe presencia de correlación

Cómo funciona la técnica

Componentes principales

Reproducir la matriz original en menos dimensiones

Problema de Optimización

Enfoque de Hotelling (1933) o Pearson (1901)


Teorema de la factorización - SDV

Reproducir la matriz original en menos dimensiones.


Esquema de las componentes


Resumen

Interpretación en el espacio de las componentes

Interpretación en el espacio de las componentes

Ejemplo

El conjunto de datos RESUMEN.sav contiene un preprocesamiento de la GEIH del DANE a nivel departamental para algunas variables de interés.


library(pacman)
p_load(tidyverse, janitor,
       FactoMineR, factoextra, Factoshiny, 
       skimr, corrplot, psych, gt, gtsummary, haven)

url <- "https://github.com/jgbabativam/AnaDatos/raw/main/datos/RESUMEN.sav"
datos <- read_sav(url) |> as_factor()


Use el comando glimpse() y skim() para explorar el conjunto de datos.

Preparación del conjunto de datos


datos <- datos |> 
         column_to_rownames(var = "DPTO")


  • Use la función Factoshiny(datos) y ajuste los parámetros del modelo.

  • Explore el peso de las variables mediante la función PCA(datos) del paquete FactoMineR.

Analice los resultados

res <- PCA(datos, scale.unit = T, graph = F)
fviz_screeplot(res, addlabels = TRUE, ylim = c(0, 60))

Primer plano factorial para las variables

fviz_pca_var(res, 
             col.var="contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE)

Primer plano factorial para los individuos

fviz_pca_ind(res, col.ind = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE)

Biplot

fviz_pca_biplot(res, repel = TRUE, col.ind = "blue", col.var = "red")

Construcción de índices sintéticos


Tenga en cuenta que:

\[\mathbf{Y} = \mathbf{XV}\]


De manera que la matriz \(\mathbf{V}\) son los ponderadores de las variables en la matriz \(\mathbf{X}\), con lo cual \(\mathbf{Y}\) es un índice que resume la información contenida en las variables originales.

ANÁLISIS DE CORRESPONDENCIAS

Análisis de correspondencias


Mientras que el PCA se usa para tratar variables cuantitativas que tienen algún grado de asociación lineal, el análisis de correspondencias es un método que surge de las tablas de contingencia y permite estudiar las relaciones entre variables nominales. Este análisis permite:

  • Identificar patrones de asociación entre variables categóricas.
  • Hacer una reducción de la dimensionalidad.
  • Observar la proximidad entre individuos y entre variables.
  • Hacer un pre-procesamiento para el análisis de clúster.

Estructura del conjunto de datos


Funcionamiento del análisis de correspondencias


Generación de tablas de contingencia

Al realizar la operación \(\mathbf{X}^T\mathbf{X}\) se llega a la matriz que concatena todas las tablas de contingencia entre pares de variables, denominada matriz de Burt

Proyección sobre el espacio factorial

GRACIAS!

Referencias

  • Çetinkaya-Rundel, M. and Hardin, J. (2021) Introduction to modern statistics. Sections of Regression modeling: 7, 8, 9 y 10. Disponible aquí: https://openintro-ims.netlify.app/

  • Ismay, C., & Kim, A.Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/9780367409913

  • Thompson, J. (2019). Tidy Data Science with the tidyverse and tidymodels. https://tidyds-2021.wjakethompson.com